Борьба с плагиатом в эпоху ИИ: почему под подозрением оказались даже честные студенты и ученые


За 20 лет существования антиплагиат научился распознавать маскировку заимствований, парафраз и машинный перевод. Но распространение ИИ оказалось для академической среды серьезным вызовом. Как развитие технологий привело к новым проблемам для студентов и преподавателей — в материале Наука Mail.

Чехович Юрий

Автор Юрий Чехович, кандидат физико-математических наук, заведующий лабораторией в ИПУ РАН, основатель сервиса «Думейт», эксперт по машинному обучению и академической этике.

Как и когда появился антиплагиат в России

Российская индустрия проверки на плагиат начала формироваться в 2005 году. До этого момента массовых и общедоступных сервисов для проверки текстов на русском языке не существовало. Были лишь программы для локального использования — университетские или корпоративные прототипы, предназначенные для работы на персональном компьютере или небольшом сервере. Они могли обеспечить поиск совпадений с файлами на компьютере пользователя или в локальной базе данных. Решений продуктового уровня, которые можно было приобрести как программное обеспечение или как подписку, на российском рынке не было.

При этом в англоязычной образовательной среде такие решения существовали еще с конца 90-х. Например, сервис Turnitin, запущенный американской компанией в 1997 году, функционировал как полноценный бизнес и позволял подписчикам проверять тексты на заимствования. Однако он не работал с документами на русском языке.

А в 2005 году мы разработали и запустили систему «Антиплагиат». Изначально бесплатное решение получило широкую известность в летнюю сессию 2006 года. Было широкое освещение проекта на федеральных телеканалах, заинтересованность в системе высказали многие государственные деятели. Можно сказать, что российский рынок систем проверки текстов на заимствования начал формироваться именно с этого момента. За прошедшие с тех пор 20 лет рынок пережил несколько значительных трансформаций.

В последующие годы на рынок пытались выйти другие решения, однако не все они выдержали конкуренцию. Так, в 2007 году появился сервис «Плагиат Информ» на базе белорусской разработки SearchInform, но он просуществовал непродолжительное время и быстро ушел с рынка. Фактически до 2013 года доминировал «Антиплагиат».

Ситуация изменилась после запуска проекта «Диссернет», который акцентировал внимание на проверке диссертаций известных публичных лиц. Рост общественного интереса сопровождался нормативными изменениями со стороны Министерства науки и высшего образования, закрепившими требования к вузам по проверке дипломов и диссертаций.

С 2015—2016 годов на российском рынке появились новые системы, включая «Руконтекст» и «ВКР-ВУЗ», однако их доля рынка оставалась небольшой по сравнению с «Антиплагиатом». Серьезные попытки иностранных компаний предлагать свои решения российским пользователям закончились в 2014 году — геополитические события и введенные санкции полностью вывели их с российского рынка.

В 2025 году на рынке появилась новая система «Думейт», разработанная командой выходцев из «Антиплагиата». Она ориентирована на работу с вузами и частными пользователями, а одной из задач ставит снижение зависимости отрасли от доминирующего решения.

Эволюция типов заимствований и адаптация систем обнаружения

За 20 с лишним лет претерпел значительные изменения и характер заимствований в академических текстах. В середине нулевых заимствования были сравнительно примитивными, так как студенты использовали общедоступные базы рефератов и готовых работ. Задача проверки текста сводилась к выявлению целиком скопированных работ, иногда с незначительными изменениями титульного листа или исправлениями опечаток.

Ближе к середине 2010-х годов университеты начали внедрять автоматизированные средства проверки. Это привело к появлению новых способов обхода детекции. Одним из направлений была так называемая маскировка заимствований:

  • технические правки в файлах (Microsoft Word, PDF), изменяющие текстовую подложку без визуальных изменений;
  • вставка микропробелов или невидимых символов, разбивающих слова на части;
  • использование объектов для вставки текста в виде изображения или размещение текста за пределами видимой страницы;
  • замена кириллических букв на латинские аналоги.

Вскоре основная часть таких манипуляций была нейтрализована системами проверки. Попытки «испортить файлы» продолжаются до сих пор, но уже не носят массового характера.

Авторы продолжали искать способы обойти системы. Важно отметить, что на острие этих поисков находились так называемые «писатели на заказ», заинтересованные в снижении издержек на подготовку работ. Им всегда было важно, чтобы результаты их работы без проблем преодолевали проверку на плагиат.

Системы обнаружения заимствований использовались все шире, и это постепенно привело к тому, что авторы стали чаще прибегать к более сложным изменениям текста. Один из них — это парафраз (перефразировка), формальное изменение текста без изменения смысла. Естественно, что перефразировка ручным способом является довольно трудоемкой — по сути, это полное переписывание текста своими словами. Кто-то стал использовать автоматические решения на основе синонимайзеров — программ, которые произвольно заменяли часть слов на синонимы. Такие программы действительно изменяли тексты до неузнаваемости, но зачастую качество результата оказывалось низким и легко выявлялось проверяющими.

Параллельно с парафразом возникло новое направление — использование перевода текста (например, с английского на русский) для создания уникальных работ. Студенты находили оригинальные англоязычные работы, использовали машинный перевод, а сервисы воспринимали тексты как уникальные. В ответ на это разработчики систем обнаружения заимствований начали внедрять инструменты для детекции переводов и парафраза.

Таким образом, эволюция типов заимствований требует постоянного совершенствования алгоритмов их обнаружения. Простые методы обхода, такие как замена букв, были успешно устранены уже на раннем этапе, в то время как сложные формы маскировки и перевода остаются актуальными вызовами для современных систем. Постоянная работа по выявлению новых техник обхода детекции остается ключевым направлением в развитии антиплагиатных технологий.

А с 2023 года разработчики систем проверки столкнулись с новым вызовом — детекцией текстов на ИИ.

Распространение генеративных моделей поставило под вопрос традиционную роль сервисов проверки.

Тексты, созданные алгоритмами, могут не иметь прямых источников заимствования, и это снижает эффективность классических методов детекции. На этом фоне прежние проблемы не исчезли, но стали менее значимыми.

Особенности заимствований в научных текстах

Современные системы обнаружения заимствований ориентированы не на отдельные слова, а на относительно объемные фрагменты текста. Совпадение единичных лексем не рассматривается как признак заимствования, поскольку любой оригинальный текст неизбежно состоит из уже существующих слов.

Поэтому важным триггером является совпадение последовательностей: чем длиннее и устойчивее совпадающий фрагмент, тем выше вероятность того, что система классифицирует его как заимствование.

Такой подход позволяет выявлять некорректные заимствования, однако в научных текстах он сталкивается с рядом ограничений. Академическое письмо характеризуется высокой степенью стандартизации: в работах регулярно воспроизводятся устойчивые формулировки, названия организаций, нормативных актов, а также описания методик. Подобные конструкции часто совпадают дословно и могут состоять из значительного числа слов, что формально делает их «подозрительными» для системы проверки.

В результате возникает феномен так называемого «мусорного плагиата» (junk plagiarism) — ситуации, когда система фиксирует значительный процент совпадений, не отражающих значимых заимствований. В отдельных случаях доля таких совпадений в отчете может достигать 20−30%, несмотря на академическую добросовестность автора.

Также следует учитывать различие между плагиатом и цитированием. Например, если в работе описана методика с указанием источника, то здесь речь идет о легитимном заимствовании, и оно не должно интерпретироваться как нарушение. Однако алгоритмы часто не различают такие случаи без дополнительного контекстного анализа.

Есть ли у систем заимствований технологический предел

Быстрое развитие искусственного интеллекта меняет отношение к традиционному подходу проверки текстов, основанному на классификации и выявлении совпадений. Сегодня сервисы вынуждены постоянно адаптироваться к новым условиям.

В условиях широкого использования ИИ не так интересен сам факт наличия сгенерированного текста. Это показатель становится все менее информативным. Гораздо важнее понимать, как именно был использован инструмент. В связи с этим важным направлением становится «объяснимая детекция» — анализ характера изменений текста, будь то генерация, перефразирование или редакторская правка.

Есть и альтернативный подход — он связан с фиксацией процесса создания текста. По такому принципу, например, работает «Дутрейс» — сервис для работы с научными текстами, который позволяет автоматизировать рутинные задачи, сохраняя отчет о действиях и прозрачность процесса. Это позволяет сместить акцент с поиска нарушений на подтверждение добросовестности автора.

Регуляторные вызовы в сфере обнаружения плагиата

Доверие к системам обнаружения заимствований страдает из-за недостаточной определенности нормативного регулирования. В условиях стремительного распространения ИИ-технологий ключевым вопросом становится формирование правил их использования в академической практике.

Не менее важно, чтобы регулирование не было излишне жестким, так как запретительный подход может оказаться неэффективным из-за высокой динамики технологических изменений. Более перспективной представляется гибкая модель, в которой отклонения от базовых правил допускаются при условии их прозрачного обоснования со стороны автора.

Заключение

Борьба с плагиатом превратилась из поиска примитивного копирования в сложную игру между алгоритмами и авторами. Сегодня качество проверки научных текстов определяет не столько поиск совпадений, сколько понимание контекста и добросовестности автора. Будущее антиплагиатных технологий — в прозрачности, интерпретируемости и доверии между системой и человеком.

Ранее Наука Mail публиковала мнение главного редактора «Учительской газеты», основателя проекта «Учительская Россия» Никиты Чудина о том, каким будет образование в будущем.

Наука Mail


Рубрика: Новости партнеров

Дата: 07-05-2026

Теги: Антиплагиат Обнаружение заимствований Юрий Чехович